El COVID-19 ha tenido un gran impacto alrededor del mundo y hoy en dia es fácilmente el tema del que más se habla. Todos los países han tomado medidas con respecto a esta pandemia, sin embargo unos las han tomado muy tarde y esto se ha visto afectado en la expansión del virus en ellos. En Perú, las medidas se empezaron a tomar rápidamente, pero una cantidad considerable de la población no ha cumplido con las inmovilizaciones sociales y esto se ha visto reflejado en la expansión del virus en el país. ¿Cómo podemos saber cuáles han sido las medidas más respetadas y por qué? La respuesta a esta pregunta le sería de mucha ayuda al gobierno peruano, ya que con esta información se podría saber que tipo de medidas debería tomar y en qué momentos para que se cumplan de manera satisfactoria. Es por ello que nuestro grupo ha decidido investigar acerca de la efectividad de las medidas tomadas y su relación con la movilización social de los ciudadanos.
Este trabajo es factible, debido a que la mayor parte de la información la podemos conseguir de gráficos ya existentes con relación al COVID-19 en Perú y la información faltante la podemos adquirir a través de encuestas. Además, los efectos de las medidas tomadas por el gobierno en la movilización social ya se pueden analizar, debido a que su información se obtiene solamente días después de implementarlas. Finalmente, esta investigación se puede llevar a cabo en el tiempo dado, debido a que no es un trabajo que requiera tiempo de espera para llegar a concretarse. Esto quiere decir que lo podemos empezar inmediatamente.
La importancia de este estudio estadístico radica en el análisis de algunas de las medidas que el gobierno ha declarado ante la coyuntura del Covid-19. Es importante estudiar su efecto en la movilización social, puesto que podría otorgar un panorama más holístico y verídico sobre las medidas que generan un impacto positivo en la desaceleración de la propagación del nuevo virus Sars-CoV-2.
La población de interés son los ciudadanos peruanos. Para lograr que nuestras unidades muestrales sean los más representativa posible, hemos decidido delimitar nuestra población objetivo al área de Lima. Esto se debe a que nuestros encuestados se encuentran en esta zona y la mayor cantidad de población se encuentra aquí.
Tipo de muestreo
El tipo de muestreo es aleatorio simple estratificado para ciudadanos con edades entre 18-50 años. Ello, dado que todos los individuos de subconjunto de la población objetivo tienen la misma probabilidad de ser seleccionados.
\[n = Z^2p(1-p)/e^2\]
Como no hay todavía datos para obtener el valor real de p, se asume p = 0.5. Con ello, se obtiene un tamaño de muestra de por lo menos 91 personas para ser significativo.
Existen varias fuentes de la que es posible extraer la información necesaria para responder las preguntas.
Nota: Todas se encuentran citadas en bibliografía.
La información contenida en estas direcciones son originales, además de confiables, dado que se presenta cada medida con su respectivo decreto legislativo. Asimismo, los datos estadísticos cuentan con sustento de fuentes oficiales.
Con respecto al uso de los datos obtenidos de fuentes, tenemos claro cómo utilizar cada uno de ellos. La fuente de la que adquirimos la información respecto a las medidas tomadas nos es de mucha ayuda, ya que junto a ellas están las fechas en las que se llevaron a cabo. Esto nos permite analizar la población antes y después de que se implementarán estas medidas.
Las fuentes de las que adquirimos las gráficas de inmovilización social también nos son de gran ayuda porque nos permiten relacionar las fechas en las que se llevaron a cabo las medidas gubernamentales con el flujo de gente en las calles. Esta relación es muy importante, ya que nos permitirá analizar la efectividad de los decretos y nos ayudará a lograr nuestros objetivos. El procesamiento de la data obtenida en las fuentes es muy importante, debido a que por sí solas nos muestran información “cruda” que todo el mundo ya conoce. Al procesar esta data y relacionarla con otra/s, la investigación se vuelve más interesante, ya que las relaciones entre diferentes estadísticas son posiblemente desconocidas y le brindan información mucho más útil al lector.
| N° | Pregunta | Tipo |
|---|---|---|
| 1 | ¿Qué edad tienen los miembros de la muestra? | Descriptiva |
| 2 | ¿De qué género son? | Descriptiva |
| 3 | ¿Cuánto es su ingreso promedio? | Descriptiva |
| 4 | ¿En qué distrito vives? | Descriptiva |
| 5 | ¿Cuál fue el último nivel educativo que completaste? | Descriptiva |
| 6 | ¿Su tipo de empleo es formal o informal? | Descriptiva |
| 7 | ¿Qué tan frecuentemente salía de casa previamente al comienzo de la cuarentena? | Descriptiva |
| 8 | ¿Qué tanto consideras que tu distrito se ha visto afectado por la enfermedad? | Descriptiva |
| 9 | ¿Por qué razones salías durante la cuarentena? | Descriptiva |
| 10 | ¿Consideras que esta medida “c/u de las medidas” fue efectiva para reducir el número de contagios en tu distrito? | Descriptiva |
| 11 | ¿Qué condiciones crees que aceleran la propagación del Covid en tu distrito? | Descriptiva |
| 12 | ¿Qué condiciones crees que retardan la propagación del Covid en tu distrito? | Descriptiva |
| 13 | ¿Qué medidas gubernamentales son las que recuerdas que se hayan tomado? | Descriptiva |
| N° | Pregunta | Tipo |
|---|---|---|
| 14 | ¿Qué tanto varían las cifras de nuevos infectados durante los periodos de instauración previos-posteriores a la medida? | Descriptiva |
| 15 | ¿Cuáles eran las razones por las que la población salía durante la cuarentena? | Descriptiva |
| 16 | ¿Cuáles han sido las medidas que han tenido mayor impacto en la población? | Descriptiva |
| 17 | Existe una misma tendencia de poblaciones afectadas por el Covid 19 durante las medidas de aislamiento? | Exploratoria |
| 18 | ¿Las medidas en los distritos más exclusivos presentan una mayor o menor efectividad? | Exploratoria |
| 19 | ¿La entrega de mayores subsidios monetarios resultaría en un importante beneficio para la disminución del número de salidas? | Inferencial |
| 20 | ¿Es posible predecir cuántas horas en promedio una persona salía de casa conociendo su nivel de ingresos y el distrito de residencia? | Predictiva |
| 21 | ¿Es posible predecir su nivel de ingresos conociendo únicamente su tipo de empleo? | Predictiva |
| 22 | ¿Qué factores determinan que la propagación del Covid 19 se desacelere? | Causal |
| 23 | ¿Cómo ciertas condiciones determinan que la propagación del COVID se acelere / retarde? | Mecanística |
| Variable | Relación con pregunta |
|---|---|
| Edad | 1 |
| Género | 2 |
| Clase social | 3,17,18,20,21 |
| Nivel educativo alcanzado | 5,17,18 |
| Tipo de trabajo | 6,18,21 |
| Frecuencia de salida | 7,18,19 |
| Lugar donde vive (distrito) | 4,17,18,20 |
| Cantidad de infectados por dia | 14,19 |
| Tiempo antes y despues de las medidas | 14,17,18 |
| Justificacion de salida | 9,15 |
| Medidas aplicadas | 10,16,17,18,19 |
| Factores | 22,23 |
Cantidad de personas que se movilizan en las calles antes y después de cada una de las medidas, Tiempo, Medidas aplicadas:
Media (valor): permitirá conocer en promedio cuántos ciudadanos limeños se movilizan antes y después de la medida
Mediana, cuartiles (valor): permitirá saber cuántos ciudadanos limeños se movilizan al 25%, 50%; 75%, 100% del tiempo de estudio, de esta manera se conocerá el efecto de la movilización con el transcurso del tiempo para cada medida.
Desviación estándar: permitirá saber cuántas son las variaciones promedio de movilización social respecto a la media
Media(valor): permitirá conocer cuánto es la tasa infectados que hubo en promedio antes y después de medida aplicada
Mediana, cuartiles (valor): permitirá saber cuántos infectados hubo al 25%, 50%;75%, 100% del tiempo de estudio, de esta manera se conocerá el efecto del número de infectados con el transcurso del tiempo para cada medida.
Desviación estándar: permitirá saber cuántas son las variaciones promedio de infectados respecto a la media.
Mediana, cuartiles (valor): permitirá saber cuántas salidas a la semana representa 25%,50%,75% de los ciudadanos de Lima encuestados para cada medida y variable de interés
Moda (valor): permitirá saber la frecuencia de salida mayoritaria de los ciudadanos de Lima encuestados
*Frecuencia de observaciones para cada género en relación a su frecuencia de salida
Gráfica de dispersión para notar fácilmente como aumenta o decrece la cantidad de infectados e infectados por dia antes y después de que se aplique la medida. Además, la gráfica de dispersión nos puede ayudar a encontrar una relación y/o patrón entre la cantidad de infectados y/o movilización social y los días transcurridos desde que se empleó cada medida.
También utilizaremos un gráfico de caja de bigotes para diferenciar las edades de los entrevistados de manera rápida y efectiva. Esto nos permitirá ver la relación entre las edades y respuestas dadas por las personas.
Además, se utilizarán gráficos de barras principalmente para visualizar y analizar las respuestas cualitativas. Con los gráficos de barras se podrán ver cuales han sido las respuestas cualitativas respondidas con más y menos frecuencia.
Finalmente, se usarán histograma para describir las variables cuantitativas que pueden ser distribuidas en rangos. Esto nos facilitará analizar los datos con muchos valores o respuestas posibles.
# curl -Ls "$url" > df_form.csv
tmp <- tempfile()
curl_download("https://docs.google.com/spreadsheets/d/e/2PACX-1vS5FwsKHl4PhukIHfSGbfA8NCQ5SqBDpQ16KC69JCiFAWVeJ40BACp0dqhBTkHi9cpLE_JmEmIvfdvA/pub?gid=637100843&single=true&output=csv", tmp)
read_csv(tmp) -> df_form1
Parsed with column specification:
cols(
.default = col_character(),
`¿Cuál es tu edad?` = col_double(),
`¿Cuántas veces a la semana, en promedio, salías de casa durante los días de cuarentena?` = col_double(),
`Respecto a la anterior pregunta. Del 0 al 5, ¿ En cuánto disminuyó tus salidas durante la cuarentena?` = col_double(),
`Respecto a la anterior pregunta. Del 0 al 5, ¿Cuánto te desanimó salir de casa?` = col_double(),
`Respecto a la anterior pregunta. Del 0 al 5, ¿Cuánto cambio tus salidas?` = col_double(),
`Respecto a la anterior pregunta. Del 0 al 5, ¿Cuán menores fueron tus salidas?` = col_double(),
`Respecto a la anterior pregunta. Del 0 al 5, ¿Cuánto se redujo tus salidas?` = col_double(),
`Respecto a la anterior pregunta. Del 0 al 5, ¿ Cuán más te mantuviste en casa?` = col_double(),
`Respecto a la anterior pregunta. Del 0 al 5, ¿Cuánto tiempo más te mantuvo en casa?` = col_double()
)
See spec(...) for full column specifications.
# Segunda encuesta
tmp <- tempfile()
curl_download("https://docs.google.com/spreadsheets/d/e/2PACX-1vS5FwsKHl4PhukIHfSGbfA8NCQ5SqBDpQ16KC69JCiFAWVeJ40BACp0dqhBTkHi9cpLE_JmEmIvfdvA/pub?gid=637100843&single=true&output=csv", tmp)
read_csv(tmp) %>%
rename(
tiempo = "Marca temporal",
edad = "¿Cuál es tu edad?",
genero = "¿De qué género eres?",
ingreso = "¿Cuánto es el ingreso mensual promedio de tu familia aproximadamente (soles) ?",
distrito = "¿En qué distrito vives?",
estudio = "¿Cuál fue el último nivel educativo que completaste?",
empleo = "¿Cuál es tu tipo de empleo?",
salidas = "¿Cuántas veces a la semana, en promedio, salías de casa durante los días de cuarentena?",
razones = "¿Por qué razones salías durante la cuarentena?",
social.bool = "¿La medida de \"Inmovilización social\", realmente hizo que tus salidas durante toda la cuarentena fueran muy pocas?",
social.05 = "Respecto a la anterior pregunta. Del 0 al 5, ¿ En cuánto disminuyó tus salidas durante la cuarentena?",
ocio.bool = "¿ La \"Suspensión de acceso a lugares públicos: lugares de ocio, restaurantes, etc\", te desanimó salir de casa?",
ocio.05 = "Respecto a la anterior pregunta. Del 0 al 5, ¿Cuánto te desanimó salir de casa?",
noday.bool = "¿La medida \"Disposición salida de hombres y mujeres en días complementarios (lunes-miércoles-viernes / martes-jueves-sábados)\", garantizo que salieras menos que antes?",
noday.05 = "Respecto a la anterior pregunta. Del 0 al 5, ¿Cuánto cambio tus salidas?",
multa.bool = "¿ La medida \"Multa de S/.86 -S/.340 para todas las personas que desobedecen disposiciones del gobierno\", hizo que tus salidas de casa fueran menores?",
multa.05 = "Respecto a la anterior pregunta. Del 0 al 5, ¿Cuán menores fueron tus salidas?",
bono.bool = "¿ La medida \"Entrega de bono S/. 380, S/.760 de acuerdo al Sistema de Focalización de Hogares (SISFOH) \", permitió que redujeras tus salidas de casa?",
bono.05 = "Respecto a la anterior pregunta. Del 0 al 5, ¿Cuánto se redujo tus salidas?",
afp1.bool = "¿ La medida \"Retiro de hasta S/. 2000 de fondos AFP de trabajadores afiliados que no tienen planilla\", te mantuvo más tiempo en casa?",
afp1.05 = "Respecto a la anterior pregunta. Del 0 al 5, ¿ Cuán más te mantuviste en casa?",
afp2.bool = "¿ La medida \"Retiro del 25% de fondos AFP para trabajadores afiliados\", te mantuvo más tiempo en casa?",
afp2.05 = "Respecto a la anterior pregunta. Del 0 al 5, ¿Cuánto tiempo más te mantuvo en casa?",
decceleration = "¿Qué condiciones crees que existen en tu distrito que retardan la propagación del Covid?",
acceleration = "¿Qué condiciones crees que existen en tu distrito que aceleran la propagación del Covid?"
) %>%
mutate(
genero = as.factor(genero),
ingreso = as.factor(ingreso),
distrito = as.factor(distrito),
estudio = factor(estudio, levels = c("Secundaria", "Técnica", "Universitaria", "Posgrado")),
empleo = factor(empleo, levels = c("No trabajo", "Informal", "Formal")),
# Esteban Nicolas Villacorta Garcia cambió las respuestas de la encuesta
# de "Mayor 5" a 6.
salidas_ = salidas,
salidas = replace(salidas, salidas=="6", "Mayor 5"),
salidas = factor(salidas, levels = c(0:5, "Mayor 5")),
razones = strsplit(razones, ", "),
social.bool = social.bool == "Sí" | social.bool == "Si",
ocio.bool = ocio.bool == "Sí" | ocio.bool == "Si",
noday.bool = noday.bool == "Sí" | noday.bool == "Si",
multa.bool = multa.bool == "Sí" | multa.bool == "Si",
bono.bool = bono.bool == "Sí" | bono.bool == "Si",
afp1.bool = afp1.bool == "Sí" | afp1.bool == "Si",
afp2.bool = afp2.bool == "Sí" | afp2.bool == "Si",
acceleration = strsplit(acceleration, ", "),
decceleration = strsplit(decceleration, ", ")
) -> df_form2
Parsed with column specification:
cols(
.default = col_character(),
`¿Cuál es tu edad?` = col_double(),
`¿Cuántas veces a la semana, en promedio, salías de casa durante los días de cuarentena?` = col_double(),
`Respecto a la anterior pregunta. Del 0 al 5, ¿ En cuánto disminuyó tus salidas durante la cuarentena?` = col_double(),
`Respecto a la anterior pregunta. Del 0 al 5, ¿Cuánto te desanimó salir de casa?` = col_double(),
`Respecto a la anterior pregunta. Del 0 al 5, ¿Cuánto cambio tus salidas?` = col_double(),
`Respecto a la anterior pregunta. Del 0 al 5, ¿Cuán menores fueron tus salidas?` = col_double(),
`Respecto a la anterior pregunta. Del 0 al 5, ¿Cuánto se redujo tus salidas?` = col_double(),
`Respecto a la anterior pregunta. Del 0 al 5, ¿ Cuán más te mantuviste en casa?` = col_double(),
`Respecto a la anterior pregunta. Del 0 al 5, ¿Cuánto tiempo más te mantuvo en casa?` = col_double()
)
See spec(...) for full column specifications.
df_form2
summary(df_form2$edad)
Min. 1st Qu. Median Mean 3rd Qu. Max.
17.0 22.0 28.0 33.4 45.0 67.0
boxplot(df_form2$edad, xlab = "", ylab = "Edad", main=NULL)
title("Gráfico 1. Edad")
\[n = 310, sd = 12.619\]
Según el INEI (2015), al realizar una investigación exhaustiva, se encontró que en Lima la estructura de la población proyectada muestra mayores cambios acentuados en la edad, así el grupo de 0-14 años de edad redujó su participación de un 29.3% a 22.0%, mientras que el grupo de 15-64 años incrementó su participación de 65.8% a 69.4% desde 1995 hasta el 2015. A partir de la gráfica se puede observar que la población pertenece al segundo grupo por encontrarse entre 17 y 67 años de edad confirmando de este modo que el crecimiento demográfico ha seguido la misma línea después del periodo de estimación. Esto se verifica con el censo del INEI, el cual manifesto que el 61.7% tiene de 15 a 19 años de edad. Más aún, el CPI (2019), exhibe que la mayor población se encuentra entre 18 a 56 años respaldando lo condensando hasta aquí.
df_form2 %>%
group_by(genero) %>%
summarise(n = n()) %>%
barplot(n~genero, data=., xlab="Personas", ylab="Cantidad")
title("Gráfico 2. Género")
El Instituto Nacional de Estadística e Informático (INEI) dio a conocer que en el año 2017 la población del Perú ascendió a 31 millones 237 mil 385 habitantes. Lima tenía cerca de 9 millones y medio de habitantes. El porcentaje de hombres fue superior a las mujeres en 8 departamentos. Particularmente en Lima, la proporción de hombres era 50.2% y el de mujeres 49.8%. Investigaciones recientes indican que para el 2021 el Perú tendrá más de 33 millones de habitantes con un promedio de edad de 30 años, con mayor cantidad de mujeres sumado con un acelerado proceso de envejecimiento.
par(mai = c(0.8, 1.5, 0.2, 0.5))
df_form2 %>%
group_by(ingreso) %>%
summarise(n = n()) %>%
barplot(n~ingreso, data=., horiz = TRUE, las = 2, xlab = "Personas", ylab="")
title(ylab="Ingreso", line=6)
title("Gráfico 3. Ingresos")
Según el INEI (2019) el ingreso promedio mensual fue de S/1723.7 evidenciando un incremento en 4.5% en relación con el año anterior. Dicho en otras palabras, el ingreso es más elevado en S/ 73.7. No obstante, es necesario mencionar que esto no fue igual de acuerdo al género. Para los hombres el ingreso creció en 5.3% lo que equivale a S/ 100.8, mientras que en las mujeres se elevó solo 3.1% o también S/ 41.3. El gráfico 3 exhibe que la mayoría de la población encuestada se encuentra en un intervalo de ingreso entre 0 a 1000. Hay que destacar que las condiciones no son las mismas, dado que hoy en día se vive en una coyuntura pandémica y muchas personas dejaron de trabajar por las medidas implementadas. Tal es el caso que la población con educación superior tuvo un ingreso promedio de S/ 2,525.3 lo que implicó una caída en su remuneración de 13%. La caída general en el capital fue de 4.2% (S/ 72.3) dejando un promedio de S/ 1,666. Por grupos de edad los trabajadores de 45 años a más fueron los que más reducidos vieron sus ingresos. Disminuyeron en un 11.5%.
Este gráfico es muy importante, dado que nos va a permitir relacionar varias variables, tales como Tipo de trabajo Vs. Ingresos y así determinar si existe alguna tendencia en el estudio.
par(mai = c(1, 2, 0.5, 0.5))
#plot(edad~distrito, data = df_form2, horizontal=TRUE, las=2, xlab="")
#title(ylab="Distrito", line=8)
df_form2$distrito %>%
table() %>%
sort(TRUE) %>%
barplot(horiz = TRUE, las = 2, xlab = "Personas", ylab="")
title("Gráfico 4. Distrito")
par(mai = c(1, 1.5, 0.5, 0.5))
df_form2$empleo %>%
table() %>%
sort(TRUE) %>%
barplot(horiz = TRUE, las = 2, xlab = "Personas", ylab="")
title("Gráfico 5. Tipo de trabajo")
Esta gráfica es muy importante para el estudio, dado que a partir de ella se establecerán algunas relaciones con la variable ingresos y frecuencia de salida. Las relaciones se demostrarán con las pruebas de hipótesis y coeficientes de correlación más adelante.
Para esta primera pregunta se han procesado los datos web. Se presentarán dos gráficos por cada una de las cuatro medidas que se analizarán. El primero de ellos será de los nuevos casos y el segundo de la movilización recreacional (cambios en la movilización). Los descriptores que se están utilizando para describir mejor los datos obtenidos es la media y mediana. Es necesario destacar que se ha optado por graficar los datos diez días antes de que se decrete la medida y diez días después de haberse promulgado.
En esta gráfica podemos visualizar que la cantidad de infectados por día bajó en algunos días inmediatamente después de que se declarará el estado de emergencia. Se puede apreciar en la gráfica que se lleva a cabo cada 2 o 3 días durante la semana siguiente a la implementación del Estado de Emergencia. Esto se podría deber a factores como la cantidad de pruebas tomadas por día, frecuencia de salida de las personas y el cumplimiento de las leyes y medidas tomadas.
plot_new_cases("2020-03-05", "2020-03-25")
.
Para analizar esta gráfica, se asume que el crecimiento de la enfermedad bajo condiciones normales es exponencial. Por tanto, se puede construir un modelo tal que: ln(y) ~ At+B. Tomando a L1 como regresión de control sin variable independiente y L2 la regresión luego de aplicarse la medida, se realizó un F-test para comprobar si el modelo L1 modela a L2 sin diferencias significativas.
| F - Test Two - Sample for Variances | ||
|---|---|---|
| Variable 1 | Variable 2 | |
| — | ———- | —— |
| Mean | 1.55950355 | 3.603577946 |
| Variance | 1.30751423 | 0.201678854 |
| Observations | 10 | 9 |
| df | 9 | 8 |
| F | 6.48314984 | |
| P (F <= f) one-tail | 0.00746629 | |
| F crítico one-tail | 3.38813023 | |
| — | ———- | —— |
Dado que la varianza 1 > varianza 2, la elección del orden de las variables es correcta. Por tanto, dado F > F crítico, se encuentra evidencia para falsear Ho. Dado α > P(F<=f) una cola, se rechaza la hipótesis nula, por lo que existen diferencias significativas. Comparando las pendientes A1=0.337 y A2=0.0729 con A2 <A1, se puede asumir que se frenó la expansión de la enfermedad.
plot_rmoves("2020-03-05", "2020-03-25")
.
A partir del gráfico 7, se logra visualizar que previo a la promulgación de la medida “Declaración de Estado de Emergencia”, la gente tenía mucha más movilización y luego de decretada, el cambio de movilización disminuyó en gran medida. El promedio y mediana (líneas continuas) antes de que se aplique esta medida es aproximadamente -3. Por otro lado, el promedio y mediana (líneas punteadas) desde el quince hasta el veinticinco está por debajo de -60.
Para comprobar la significancia de esta diferencia, se realizó un test-t de medias. Se asumieron las siguientes hipótesis:
| t - Test Two Assuming Unequal Variances | ||
|---|---|---|
| Variable 1 | Variable 2 | |
| — | ———- | —— |
| Mean | -3.363636364 | -71.1818182 |
| Variance | 15.65454545 | 113.363636 |
| Observations | 11 | 11 |
| df | 13 | |
| t Stat | 19.8023634 | |
| P (T <= t) one-tail | 2.15261E-11 | |
| t crítical one-tail | 1.770933396 | |
| P (T <= t) two-tail | 4.30521E-11 | |
| t crítical two-tail | 2.160368656 | |
| — | ———- | —— |
Dado que el valor |t| > t-crítico dos colas, se puede encontrar evidencia para rechazar la hipótesis nula Ho. Dado α =0.05 > P(T<=t) dos colas, existe significancia suficiente para ello. Por tanto, se rechaza Ho, existiendo por tanto diferencias significativas entre antes de ejecutarse la declaración de Estado de Emergencia y después sobre la movilización de las personas. Debido a que el coeficiente de correlación es menor a 0, se puede afirmar que el cambio además redujo la movilización.
Este gráfico nos muestra la cantidad de casos diez días antes y diez días después de que la medida “Aprobación del Padrón de Hogares” fuera aprobada. Esta es una gráfica muy importante, dado que tenía como objetivo ayudar a las poblaciones más vulnerables en condición de extrema pobreza a nivel nacional para que pudieran subsistir durante la cuarentena. Dicho en otras palabras, para que pudieran acceder a los servicios básicos y medicamentos, en caso fuesen requeridos. La cantidad de casos antes de que la medida fuese declarada, 08/03 hasta 18/03, va desde aproximadamente uno hasta veinte. No obstante, desde 18/03 hasta 28/03 la cantidad de casos va en aumento. Sin duda alguna, el objetivo era bueno, pero para el panorama que se estaba viviendo no fue efectiva. Una posible hipótesis sería la salida obligatoria de los beneficiarios a los bancos a formar largas colas durante horas. Esto explicaría el aumento de casos.
plot_new_cases("2020-03-08", "2020-03-28")
.
Se realizó un f-test sobre los inputs a la regresión lineal del logaritmo de la gráfica, siguiendo el modelo planteado arriba. Se colocó como control a todos los datos previos a declararse la medida. Se plantearon las siguientes hipótesis:
| F - Test Two - Sample for Variances | ||
|---|---|---|
| Variable 1 | Variable 2 | |
| — | ———- | —— |
| Mean | 1.538879 | 3.218122 |
| Variance | 0.949329 | 0.148907 |
| Observations | 10 | 10 |
| df | 9 | 9 |
| F | 6.375321 | |
| P (F <= f) one-tail | 0.008398 | |
| F crítico one-tail | 3.438101 | |
| — | ———- | —— |
Dado que la primera varianza es mayor a la segunda, el orden de operación de los datos es correcto. Como tal, dado F > F-critico una cola, encontramos evidencia en contra de Ho. Dado ademas P(F<=f) < α , se puede garantizar la decisión de rechazar la hipótesis nula, por lo que deben existir diferencias significativas entre los datos. Dado además A1= 0.2672 > A2=0.0116, se puede afirmar que la medida redujo la tasa de infección.
plot_rmoves("2020-03-08", "2020-03-28")
.
Esta gráfica, al igual que la Gráfica 7, manifiesta un comportamiento similar. Sin embargo, a partir de la disminución de la curva se podrían generar algunas conjeturas. La primera de ellas es que las personas tenían un respaldo para poder comprar sus alimentos y medicamentos de ser necesario por lo que ya no tenían que salir a las calles de manera concurrida a vender productos, entre otras cosas. Cabe resaltar que con esto no queremos decir que la población no salía y que la medida fue 100% efectiva. Al contrario, la población objetivo salió para hacer el retiro del subsidio por lo que el número de casos aumentó. Sin embargo, esto también contribuyó a que en días posteriores se queden en casa, debido a que contaban con dinero para subsistir por un par de semanas más (varía según el número de integrantes). Estas afirmaciones se respaldan con la media y mediana antes del decreto (líneas continuas), dado que se ubica en la parte superior del gráfico, mientras que la media y mediana (líneas punteadas) por debajo de -60.
Utilizando un test-t para medias en ambas secciones de la gráfica, podemos determinar si existe un efecto de la medida por sobre la trend general.
| t - Test Two Sample Assuming Unequal Variances | ||
|---|---|---|
| Variable 1 | Variable 2 | |
| — | ———- | —— |
| Mean | -9.33333333 | -74.5 |
| Variance | 135 | 5.388888889 |
| Observations | 9 | 10 |
| Hypothesized Mean Difference | 0 | |
| df | 9 | |
| t Stat | 16.53162428 | |
| P(T <= t) one - tail | 2.41781E-08 | |
| t Critical one - tail | 1.833112933 | |
| P(T <= t) two - tail | 4.83563E-08 | |
| t Critical two - tail | 2.262157163 | |
| — | ———- | —— |
Dado que el estadístico |t| > t-crítico dos colas, se encuentra evidencia para falsear la hipótesis nula. Dado que P(T<=t) < α, la elección es justificable, por lo que se rechaza la hipótesis nula, concluyendo por tanto que existe una diferencia significativa entre ambas secciones de la gráfica. Debido a que la correlación es negativa, se concluye que la medida redujo la movilizacion recreacional.
El gráfico 10 exhibe la cantidad de casos antes y después de aplicarse la medida “Salida alternada por género”. En un primer momento esta medida tenía como objetivo disminuir el número de contagios. Por tal razón, el Gobierno decretó determinados días de salida para mujeres y otros para varones, y los domingos nadie salía. No obstante, a partir de la representación se puede observar que el número de casos aumentó de aproximadamente cien a mil cien casos. Después de los reportajes vistos, podríamos tratar de explicar este comportamiento basándonos en lo siguiente: las mamás consideran que los varones (esposos) no saben hacer las compras de mercado. Algunos dirían que esto no tiene fundamento, pero analizando detalladamente los reportajes, pudimos reconocer que en los días de salida de mujeres había mucha más aglomeración y desorden, a diferencia de los días en que les tocaba salir a los varones.
plot_new_cases("2020-03-24", "2020-04-13")
.
Para comprobar estadísticamente si es que la medida fue efectiva o no, se realizó el test F sobre la forma logarítmica de la regresión. Debido a que la regresión no se centra en 0, se normalizaron los puntos previamente.
| F - Test Two - Sample for Variances | ||
|---|---|---|
| Variable 1 | Variable 2 | |
| — | ———- | —— |
| Mean | 4.820939 | 6.666542 |
| Variance | 0.366808 | 0.140169 |
| Observations | 10 | 10 |
| df | 9 | 9 |
| F | 2.616901 | |
| P (F <= f) one-tail | 0.150944 | |
| F crítico one-tail | 4.772466 | |
| — | ———- | —— |
Dado que F < F-crítico una cola, no se puede falsear la hipótesis nula. Además, comoP(F<=f) una cola > 0.05, se decide mantener la hipótesis nula, considerando que no existen diferencias significativas. Con esto, se comprueba que la medida no tuvo éxito en reducir los nuevos casos.
plot_rmoves("2020-03-24", "2020-04-13")
.
Se puede observar un leve cambio en la posición de las medias de ambos datasets. Para comprobar la significancia de esta diferencia, se plantea un test-t. Asumiendo:
Ho: No se puede encontrar diferencias significativas entre las dos fases.
Ha: Existen diferencias significativas entre antes de declararse la medida y tras su ejecución.
| t - Test: Paired Two Sample for Means | ||
|---|---|---|
| -75 | -76 | |
| — | ———- | —— |
| Mean | -74.1111 | -85.3333 |
| Variance | 0.923611 | 69 |
| Observations | 9 | 9 |
| Pearson Correlation | -0.68635 | |
| Hypothesized Mean Difference | 8 | |
| df | 8 | |
| t Stat | 1.074858 | |
| P(T <= t) one - tail | 0.156892 | |
| t Critical one - tail | 1.859548 | |
| P(T <= t) two - tail | 0.313784 | |
| t Critical two - tail | 2.306004 | |
| — | ———- | —— |
Dado que |tStat| < t critico dos colas, no se puede encontrar evidencia que niegue Ho. Dado además que P(T<=t) > α, no se llega a rechazar la hipótesis nula, por lo que se asume que no existen diferencias significativas tras la medida.
A partir de este gráfico se puede observar una similitud en el comportamiento con todos los demás analizados hasta este punto. Si bien es cierto las tres medidas funcionan bien para disminuir la movilización, pero con el nivel de casos de Covid-19 sucede lo contrario, dado que estos aumentan de manera significativa. Es necesario destacar que hay fechas en las que disminuye y otras en las que aumenta. No obstante, un cambio notorio sucede a partir del 6 de abril, donde la movilización está por debajo de -90 aproximadamente. El cambio de movilización puede estar fundamentada porque parte de la población no salía el mismo día. Pero, si disminuyó la movilización ¿por qué aumentaron los casos? Para responder esta pregunta, nos basaremos en el gráfico anterior, donde objetamos que las madres no pueden dejar el control o confianza a sus esposos para que se encarguen de la dispensa. La mayoría optaba por salir a comprar un día hábil y la misma aglomeración, desorden y el no distanciamiento contribuye a la aceleración de la propagación del virus.
En el gráfico número 12 hay una observación muy poco evidente que se puede ver. Pocos días anteriores a la implementación de la medida en consideración, los nuevos casos empezaron a incrementar después de haberse mantenido relativamente constantes por un tiempo. El incremento de estos nuevos casos al parecer fue controlado por unos dias posteriores de ser tomada la medida. Sin embargo, en la gráfica se puede visualizar que aproximadamente una semana después de haberse tomado esta medida los casos empezaron a incrementar nuevamente.
plot_new_cases("2020-04-10", "2020-04-30")
.
Para comprobar la significancia de esta diferencia, se plantea un test-f. Asumiendo a los puntos ubicados antes de la aplicación de la medida como control:
Ho: No se puede encontrar diferencias significativas entre la fase de control y tras aplicar la medida.
Ha: Existen diferencias significativas entre antes de declararse la medida y tras su ejecución.
| F - Test Two - Sample for Variances | ||
|---|---|---|
| Variable 1 | Variable 2 | |
| — | ———- | —— |
| Mean | 0.162215 | 0.865875 |
| Variance | 0.079739 | 0.076307 |
| Observations | 10 | 10 |
| df | 9 | 9 |
| F | 1.044967 | |
| P (F <= f) one-tail | 0.475961 | |
| F crítico one-tail | 1.739606726 | |
| — | ———- | —— |
Dado F < F-crítico una cola, no se encuentra evidencia en contra de la hipótesis nula. Como P(F<=f)>0.05, no se rechaza Ho, asumiendo por tanto que no existen diferencias significativas en el ratio de aparición de nuevos casos.
plot_rmoves("2020-04-10", "2020-04-30")
.
En esta gráfica podemos ver que la medida de permiso de adquisición de bienes y servicios básicos no afectó de manera evidente la movilización social, ya que no se puede ver una reducción o incremento totalmente claro en los días posteriores a la implementación de esta medida. Se puede observar esto mediante un t-test. Asumiendo así:
Ho = No existe diferencia antes y después de aplicarse la medida
Ha = Existen diferencias significativas en la movilización entre el periodo previo a la declaración y el posterior.
| t - Test: Two-Sample Assuming Unequal Variances | ||
|---|---|---|
| Variable 1 | Variable 2 | |
| — | ———- | —— |
| Mean | -80.4 | -76.6 |
| Variance | 68.21111111 | 37.82222222 |
| Observations | 10 | 10 |
| Hypothesized Mean Difference | 0 | |
| df | 17 | |
| t Stat | -1.166977249 | |
| P(T <= t) one - tail | 0.129664399 | |
| t Critical one - tail | 1.739606726 | |
| P(T <= t) two - tail | 0.259328799 | |
| t Critical two - tail | 2.109815578 | |
| — | ———- | —— |
Dado que |t| < t-crítico, no se puede solventar la idea de rechazar la hipótesis directamente. Dado además que P(T<t) > α , no se llega a rechazar completamente Ho, por lo que se asume que no existen diferencias significativas.
df_form2$razones %>% unlist() %>% table() -> razones_t
wordcloud(names(razones_t), as.vector(razones_t), min.freq = 2)
title("Gráfico 14. Razones para salir durante la cuarentena")
El gráfico anterior manifiesta algunas de las razones que justifican las salidas de casa de la población encuestada durante la cuarentena. Es necesario destacar que esta gráfica se relaciona mucho con la gráfica 6,8,10 y 12, dado que explicaría de algún u otro modo el aumento de casos. La razón con mayor porcentaje es la comida, la que le continúa son los medicamentos y por último el trabajo.
df_form2 %>%
group_by(salidas) %>%
summarise(n=n()) %>%
barplot(n~salidas, data=., ylab = "Personas", xlab="Salidas")
title("Gráfico 15. Salidas por semana")
Este gráfico se relaciona mucho con el anterior, dado que exhibe las salidas por semana de la población muestra. La gráfica contiene un punto máximo en 2, además de otro máximo local en 5. La media y la mediana son 3.06 y 3 respectivamente, lo que provee un buen estimador de las salidas promedio de las personas encuestadas.
ggplot(aes(x =salidas_, y = ingreso, group=ingreso), data = df_form2) +
geom_count() +
ggtitle("Salidas vs ingresos") +
theme(plot.title = element_text(hjust = 0.5))
Para el rango más bajo de ingresos [0-1000] soles, de acuerdo a la caja de bigotes, se obtuvo una mediana de 2 en la frecuencia de salida. Esto evidencia que casi el 50% incide en salir menos de 2 veces y el otro 50% sale más de 2 veces. Para el rango más alto de ingresos [>10000] la mediana es 3. Ello representa que el 50% incide en salir más de 3 veces. Los ingresos entre ambos rangos muestran una frecuencia de salida menor, la cual favorece en mediana a salidas menores que 3 y 2. A medida que incrementan los ingresos no se evidencia un comportamiento definido para las frecuencias de salida, pero si un favorecimiento a menores salidas que el rango más bajo de ingresos. La única excepción se da para el rango más alto de ingresos.
ggplot(aes(x=salidas_, y=ingreso, group=salidas_), data = df_form2) +geom_count()
Esta segunda gráfica muestra la cantidad de observaciones por ingreso y frecuencia de salida. Se observa que para 0 salidas , a medida que aumentan los ingresos menos personas inciden en esta. El mismo comportamiento se da para 1 salida, 5 salidas. Es similar el comportamiento para 2,3,6 salidas solo que existen variaciones más notorias. Asimismo, se muestra que los rangos más bajos de ingresos [0,1000],[1000,2000) presentan mayor cantidad de observaciones de 0 a 6 salidas.
#Frecuencia de salida vs. Edad
ggplot(aes(x = salidas_, y = edad, group = salidas_), data = df_form2) + geom_count() + ggtitle("Salidas vs edad") + theme(plot.title = element_text(hjust = 0.5))
Esta gráfica muestra que las medianas de las edades cambian ligeramente con la frecuencia de salida. Para 0 salidas hay personas 18-32 años que abarcan 25% y 75% del total. Para 1 salida existen personas con más edad de 25- 45 años que ocupan el rango intercuartílico. Para 2,3 salidas se mantiene ese rango de edades y la mediana cambia casi nada. Para 5,6 salidas la mediana no aumenta ni disminuye significativamente. Un aumento de la mediana a medida que aumenta la frecuencia de salida implicaria que en cada frecuencia de salida casi el 50% lo ocupen personas de más edad que la anterior frecuencia de salida. Dado que no sucede esto, se evidencian distribuciones algo similares.
ggplot(aes(y = salidas_, x = genero, group = genero), data = df_form2 ) + geom_count() + ggtitle("Género vs salidas") + theme(plot.title = element_text(hjust = 0.5))
La gráfica muestra que las observaciones son mayores para el género masculino. Los hombres, entre 1-3 salidas inciden más, las mujeres de igual forma inciden más en 1-3 salidas. Para las mujeres, la cantidad de observaciones incrementa de 0-1 salida, entre 1-3 salidas la cantidad de observaciones es la misma , luego a medida que incrementan las salidas la cantidad de observaciones disminuye. Para los hombres, la cantidad de observaciones incrementa entre 0-2 salidas, luego a medida que aumentan las salidas, la cantidad disminuye y vuelve a aumentar. Existe mayor dispersión para más de 3 salidas.
ggplot(aes(y = salidas_, x = empleo, group = empleo), data = df_form2 ) + geom_count() + ggtitle("Tipo_trabajo vs salidas") + theme(plot.title = element_text(hjust = 0.5))
La cantidad de observaciones es mayor para las personas con un trabajo formal. Estas tienen mayor variación en la cantidad de observaciones a medida que aumentan las salidas. Para las personas con un trabajo informal, existe una menor variación en la cantidad de observaciones.
par(mai = c(1, 2.5, 0.5, 0.5))
(table(c(
rep("Inmovilización", length(which(df_form2$social.bool))),
rep("No acceso a lugares públicos", length(which(df_form2$ocio.bool))),
rep("Salida intercalada", length(which(df_form2$noday.bool))),
rep("Bono", length(which(df_form2$bono.bool))),
rep("Un monto del Afp", length(which(df_form2$afp1.bool))),
rep("Un porcentaje del Afp", length(which(df_form2$afp2.bool)))
))/length(df_form2$social.bool)) %>%
sort(TRUE) %>%
barplot(horiz = TRUE,
las = 1,
ylab = "",
xlab = "Aprobación"
)
title("Gráfico 16. Aprobación por medida (de 0 a 1)")
El gráfico 16 muestra el nivel de aprobación de las medidas que se están estudiando. No obstante, también se han incluido dentro del padrón de hogares el monto de AFP y un porcentaje del mismo. Con un nivel de aprobación mayor a 0.8, la población optó por la medida “Declaración de Estado de Emergencia”. Desde el punto de vista de la población la inmovilización contribuyó en mayor medida. El segundo lugar es para el no acceso a lugares públicos, es decir el permiso para la adquisición de bienes y servicios básicos. Luego, con una aprobación menor a 0.6 las salidas por género. Finalmente, la aprobación del Padrón de Hogares con una aprobación de 0.2 aproximadamente.
El gráfico 17 muestra la relación entre las variables clase social y distrito. Una parte de la población se distribuyó entre los distritos Barranco con 3000 a 4000 soles de ingresos mensuales, Santiago de Surco [6000-7000), Surquillo [7000-8000) y Villa María del Triunfo [5000-6000). No obstante, la mayor parte de la población se ubica en un nivel de ingreso entre 0 a 2000. En el gráfico 18 se muestra el número de casos por distrito. Estos resultados se pueden vincular directamente con los ingresos de la población. En el gráfico 17 analizamos los distritos que tienen una mayor distribución en un ingreso específico. Por ejemplo, en el gráfico 18. el distrito de Barranco tiene un número de casos menor a 2000 mil casos. Surquillo por su parte tiene aproximadamente 2100 casos. Más aún, Santiago de Surco 5000 casos y Villa María del Triunfo 5800 casos. A partir de ello podríamos establecer ciertos patrones. El primero de ellos sería que para las poblaciones de un estatus social solvente (ingresos mayores a 4000) y que este sea de un determinado distrito presentará un menor número de contagiados. Esto se cumple para Barranco, Surquillo y Santiago de Surco. No obstante, si nos dirigimos a analizar determinadas poblaciones donde el número de infectados es elevado y nos fijamos en el ingreso promedio podemos dar cuenta que la mayor parte oscila entre cero a mil soles mensuales. Basta para ilustrar, Comas, distrito que tiene un ingreso de cero a mil y cuyo número de casos asciende a casi 9000.
# No supe como hacerlo con vanilla R
ggplot(aes(y = distrito, x = ingreso), data = df_form2) +
geom_count() +
ggtitle("Gráfico 17. Distritos vs ingresos") +
theme(plot.title = element_text(hjust = 0.5))
par(mai = c(1, 2.5, 1, 0.5))
df %>% filter(PROVINCIA == "LIMA") %>%
select(DISTRITO) %>%
table() %>%
sort(TRUE) %>%
barplot(las=1, horiz=TRUE, xlab="Casos")
title("Gráfico 18. Casos por distrito")
Las medidas presentan una mayor efectividad en el distrito de Barranco, dado que a diferencia de los demás, su número oscila en aproximadamente 900 casos. El mayor número de casos es en Santiago de Surco, con más de 4000 mil casos. Analizando, la gráfica 20, la cual relaciona empleo VS. Distrito se puede constatar que en Barranco existe mayor cantidad de gente con un empleo informal. Cabe señalar que también hay población que no trabaja. Por otro lado, en Santiago de Surco, San Isidro y San Borja existe una empleabilidad formal. Un patrón muy interesante es que los distritos que presentan una empleabilidad formal tiene una mayor cantidad de ingresos. Basta para ilustrar, Barranco tiene un ingreso de alrededor de 4000 soles con una empleabilidad informal, mientras que los tres restantes tienen un ingreso mayor a 8000 soles con un tipo de empleo formal.
par(mai = c(1, 2, 0.2, 0.5))
df %>% filter(PROVINCIA == "LIMA") %>%
filter(DISTRITO %in% c("MIRAFLORES",
"BARRANCO",
"SAN ISIDRO",
"SANTIAGO DE SURCO",
"SAN BORJA")
) -> infectados_5 # Es necesario luego
infectados_5 %>%
select(DISTRITO) %>%
table() %>%
sort(TRUE) %>%
barplot(las=1, horiz=TRUE, xlab="Casos")
title("Gráfico 19. Casos en algunos distritos")
df_form2 %>%
filter(distrito %in% c("Miraflores",
"Barranco",
"San Isidro",
"Santiago de Surco",
"San Borja")
) -> df_5
ggplot(aes(y = distrito, x = empleo), data = df_5) +
geom_count() +
ggtitle("Gráfico 20. distritos vs tipo de empleo")
ggplot(aes(y = distrito, x = ingreso), data = df_5) +
geom_count() +
ggtitle("Gráfico 21. distritos vs ingresos") # Aún no ha respondido nadie de Miraflores.
A partir del gráfico 22 se manifiesta que esta medida, para la población encuestada, no redujo las salidas. Esto respalda las hipótesis que suscitaron en la gráfica 8 y 9, las cuales exponían que aunque el objetivo del padrón de hogares era ayudar a las poblaciones más vulnerables para que puedan acceder a los servicios básicos, el mismo hecho de cobrar hacía que la salidas aumenten. Del mismo modo, la aglomeración resultaría en un aumento del número de contagiados, el cual se muestra claramente en la gráfica 8.
df_form2$bono.05 %>%
table() %>%
barplot(ylab="Personas")
title("Gráfico 22. Reducción de salidas (0 - 5)")
df_form2$social.05 %>%
table() %>%
barplot(ylab="Personas")
title("De 0 a 5, ¿Cúanto disminuyeron tus salidas durante la cuarentena?")
df_form2$ocio.05 %>%
table() %>%
barplot(ylab="Personas")
title("De 0 a 5, ¿Cúanto disminuyeron tus salidas durante la cuarentena?")
df_form2$noday.05 %>%
table() %>%
barplot(ylab="Personas")
title("Del 0 al 5, ¿Cuánto cambió tus salidas?")
Para esta pregunta, utilizaremos la gráfica 17 para tratar de darle respuesta. Como ya se analizó previamente, esta gráfica exhibe que tres de los cincos distritos exclusivos de Lima tienen un ingreso entre 3000 y 8000 soles. Sin embargo en distritos como Ate Vitarte, Cieneguilla, El Augustino, Independencia, Lurín, entre otros, el nivel de ingresos es desde 1000 a 2000 soles. En base a estos datos, podríamos predecir que las personas con mayores ingresos son las que menos horas salen de casa, mientras que las personas que no tienen una buena solvencia económica requerirían y se verían en la obligación de salir de casa para poder conseguir dinero, ya sea vendiendo productos de primera necesidad, ropa, accesorios, etc.
Después de realizar una investigación, se pudo encontrar que las personas con un empleo informal ganan en promedio S/. 715. La ministra de Trabajo, Sylvia Cáceres mencionó que en contraste con la población en el sector formal perciben un salario promedio de más de S/. 2000. Es necesario destacar que la variabilidad dependerá del tipo de trabajo. También la ministra mencionó que la brecha es de un 64%. Para el gráfico 18, una mayor población se encuentra trabajando en un sector formal, por lo que sus ingresos oscilarían entre S/.2000 a más. Por otro lado, el sector informal es el que menos población presenta, menor a quince personas aproximadamente. Esta población, según lo citado, tendrá un salario tres veces menor al del sector formal.
par(mai = c(1, 1.5, 0.5, 0.5))
df_form2$empleo %>%
table() %>%
sort(TRUE) %>%
barplot(horiz = TRUE, las = 2, xlab = "Personas", ylab="")
title("Gráfico 23. Tipo de trabajo")
df_form2$decceleration %>%
unlist() %>%
table() %>%
sort(TRUE) %>%
knitr::kable(col.names = c("Medida", "Personas que lo aprueban"))
| Medida | Personas que lo aprueban |
|---|---|
| Toque de queda | 204 |
| Aplicación de medidas preventivas sanitarias | 198 |
| Inmovilización | 192 |
| Que la mayoría de la movilización es por vehículos particulares por suerte | 15 |
df_form2$acceleration %>%
unlist() %>%
table() %>%
sort(TRUE) %>%
knitr::kable(col.names = c("Factor", "Personas que lo aprueban"))
| Factor | Personas que lo aprueban |
|---|---|
| Aglomeración de personas | 176 |
| Falta de educación | 167 |
| Informalidad | 164 |
| No acatar las medidas de prevención sanitaria | 144 |
| Desinformación | 93 |
| Sistema de salud | 89 |
| Fue una gestión adecuada en mi opinión | 17 |
| La alta densidad poblacional preexistente causa que no sirva de tanto el confinamiento ya que de todas maneras una casa en promedio alberga 10+ personas | 15 |
Pudimos notar que la curva de casos totales muestra un crecimiento continuo en el tiempo, evidenciándose un cambio no significativo entre antes y después de haber tomado cada medida.
En cuanto a los nuevos casos por día pudimos notar que todas las gráficas muestran una variación considerable en la cantidad de casos diarios pocos días después de que se aplicara cada medida. Estas variaciones se ven como datos atípicos en las gráficas.
En las gráficas de movilización social si se puede ver claramente el efecto de las medidas respectivas en ellas. El estado de emergencia hizo que la movilización social disminuyera en gran medida y la norma de salir días específicos de la semana también tuvo un impacto en la movilización ciertos días de la semana.
Asimismo, otro patrón encontrado es que para las poblaciones de un estatus social solvente (ingresos mayores a 4000) y este siendo de un determinado distrito presenta un menor número de contagiados. Esto se cumple para Barranco, Surquillo y Santiago de Surco. No obstante, si nos dirigimos a analizar determinadas poblaciones donde el número de infectados es elevado y nos fijamos en el ingreso promedio podemos dar cuenta que la mayor parte oscila entre cero a mil soles mensuales. Basta para ilustrar, Comas, distrito que tiene un ingreso de cero a mil y cuyo número de casos asciende a casi 9000.
Un patrón muy interesante es que los distritos que presentan una empleabilidad formal tiene una mayor cantidad de ingresos. Basta para ilustrar, Barranco tiene un ingreso de alrededor de 4000 soles con una empleabilidad informal, mientras que los tres restantes tienen un ingreso mayor a 8000 soles con un tipo de empleo formal.
Se observó que la mayoría de veces, los ingresos mensuales más altos favorecían a menores frecuencias de salida que la mediana en salidas del rango más bajo de ingresos.
Se observó que la mediana de las edades no cambió mucho a medida que aumentaban las frecuencias de salida. Las distribuciones de las edades para cada frecuencia de salida no resultaron muy diferentes. Sin embargo, parecía que personas con menor edad a 25 años tenían menores frecuencias de salida.
Se observó que la cantidad de observaciones por género, tipo de trabajo resultan dispersas para cada aumento en la frecuencia de salida. Sin embargo, los hombres parecían ser favorecidos a tener una mayor incidencia en la frecuencia de salida, no se muestra un comportamiento definido.
| Variables cuantitativas | Rango | Media |
|---|---|---|
| Edad | [17,67] | 39.8 |
| Frecuencia de salida por semana | [0,6] | 2.5 |
| Ingreso | [0,9000] | 2369 |
Conocer los intervalos de confianza para la media de la edad, permite saber con una confianza del 95% qué tan cerca están las edades en promedio con el valor esperado de la distribución normal. Esto significa que el intervalo de edades en la muestra, entre 38-40 años representan el 95% de confianza para la media. Respecto a la frecuencia de salida, ya que el intervalo de confianza de la media es muy pequeño indica que durante cada una de las medidas aplicadas la mayoría de personas entrevistadas salieron 2 veces a la semana.
Para determinar cúal hipótesis corresponde a la confianza y tolerancia que esperamos obtener, determinamos las personas que tienen un ingreso mayor a 1000 soles.
summary(df_form2$edad)
Min. 1st Qu. Median Mean 3rd Qu. Max.
17.0 22.0 28.0 33.4 45.0 67.0
summary(df_form2$salidas_)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.000 1.000 2.000 2.492 3.000 6.000
#Prueba de hipotesis encuesta
df_form2 %>%filter(ingreso=="[0-1000)") %>% group_by(ingreso) %>%
summarise(mean = mean(salidas_, na.rm = TRUE)) %>%
summarise(mean = mean(mean)) %>%
as.numeric() -> promedio_mayor
#t.test(df_form2$salidas_,mu=promedio_total,alternative = "greater",conf.level=0.95)
promedio_mayor
[1] 2.739496
n=length(df_form2$salidas_)
xbarra=mean(df_form2$salidas_)
desv_estandarmuestra=sd(df_form2$salidas_)
desvbarra=desv_estandarmuestra/sqrt(n) # desviacion estandar de poblacion
nivel_confianza=0.95
mu_evaluar=promedio_mayor
z_observado=(xbarra-mu_evaluar)/desvbarra # estadístico de prueba
p_valor=pnorm(z_observado) # cola izquierda
p_significancia=1-nivel_confianza
p_valor
[1] 0.002727884
p_significancia
[1] 0.05
De acuerdo a lo calculado el p-valor es menor a la significancia 0.05 especificada. Por lo que se rechaza H0 , una menor frecuencia de salida es influenciada por tener ingreso mayor a 1000 soles.
Se determina la media de salidas para las personas cuya edad es menor de 25 años.
df_form2 %>%filter(edad<25) %>% summarise(mean = mean(salidas_, na.rm = TRUE)) %>%
summarise(mean = mean(mean)) %>%
as.numeric() -> edad_prom
edad_prom
[1] 2.465116
n=length(df_form2$salidas_)
xbarra=mean(df_form2$salidas_)
desv_estandarmuestra=sd(df_form2$salidas_)
desvbarra=desv_estandarmuestra/sqrt(n) # desviacion estandar de poblacion
nivel_confianza=0.95
mu_evaluar=edad_prom
z_observado=(xbarra-mu_evaluar)/desvbarra # estadístico de prueba
p_valor=pnorm(z_observado) # cola derecha
p_significancia=1-nivel_confianza
p_valor
[1] 0.6170337
p_significancia
[1] 0.05
Dado que el p_valor es mayor a la significancia, no se rechaza la Ho, ya que hay personas que tienen menor edad que 25 años y salen más que el promedio de frecuencia de salida.
Las hipótesis planteadas en relación al tipo de trabajo y genero, se corroborarán posteriormente.
Para conocer en que medida se ajustan o asocian las variables que relacionamos y observamos como patrones, se determinará su grado de correlación, prinicipalmente por regresión lineal.
Para establecer si existe una relación entre ambas variables, se requiere de un indicador estadístico numérico.Dado que la variable tipo de trabajo es categórica nominal se dicotomiza en 0,1 y a partir de ello mediante un coeficiente de correlación biserial puntual se obtiene el grado de correlación de ambas variables.
df_trabajo<-df_form2%>%group_by(empleo)%>%filter(empleo!="No trabajo")%>%mutate(Variable_dicotomizada = as.numeric(empleo == "Formal"))%>%select(empleo,salidas,Variable_dicotomizada)%>%filter(salidas!="Mayor 5")
df_trabajo
Para saber si una mayor frecuencia de salida esta asociada a un empleo de tipo formal. Se determina el coeficiente de correlación biserial puntual.
H1: Existe correlación entre la frecuencia de salida y el tipo de trabajo.
\[rbp=(X1barra-Xbarra)/SX*sqrt(p/q) \]
df_trabajo_informal<-df_trabajo%>%filter(Variable_dicotomizada==0) # trabajadores informales
df_trabajo_formal<-df_trabajo%>%filter(Variable_dicotomizada==1) # trabajadores formales
X1barra<-mean(as.numeric(as.character(df_trabajo_formal$salidas))) #X1barra=promedio de la frecuencia de salida promedio de los trabajadores formales
Xbarra<-mean(as.numeric(as.character(df_trabajo$salidas)))# Xbarra=promedio de la frecuencia de salida promedio del total de personas encuestadas
SX<-sd(as.numeric(as.character(df_trabajo$salidas))) # SX=desv.estándar de la frecuencia de salida promeido del total de personas encuestadas
p=length(df_trabajo_formal$Variable_dicotomizada)/length(df_trabajo$Variable_dicotomizada) #p= proporción de trabajadores formales en la muestra
q=length(df_trabajo_informal$Variable_dicotomizada)/length(df_trabajo$Variable_dicotomizada) #q=proporción de trabajadores informales en la muestra
rbp<-((X1barra-Xbarra)/SX)*sqrt(p/q) # rbp=coeficiente de correlación biserial puntual
rbp
[1] -0.01890164
El coeficiente de correlación biserial puntual es muy bajo y negativo. Dado que su v.a. esta debajo del nivel de confianza requerido, se concluye que no existe una correlación significativa entre ambas variables.
df_inmovilizacion<-df_form2%>%group_by(empleo)%>%filter(empleo!="No trabajo")%>%mutate(Variable_dicotomizada = as.numeric(empleo == "Formal"))%>%select(empleo,social.05,Variable_dicotomizada)
df_inmovilizacion
H0: No existe correlación entre la disminución de frecuencia de salida y el tipo de trabajo.
H1: Existe correlación entre la disminución de frecuencia de salida y el tipo de trabajo.
Determinación del coeficiente de correlación biserial puntual
\[rbp=(X1barra-Xbarra)/SX*sqrt(p/q) \]
df_movilidad1<-df_inmovilizacion%>%filter(Variable_dicotomizada==0)
df_movilidad2<-df_inmovilizacion%>%filter(Variable_dicotomizada==1)
X1barra<-mean(as.numeric(as.character(df_movilidad2$social.05)))
Xbarra<-mean(as.numeric(as.character(df_inmovilizacion$social.05)))
SX<-sd(as.numeric(as.character(df_inmovilizacion$social.05)))
p=length(df_movilidad2$Variable_dicotomizada)/length(df_inmovilizacion$Variable_dicotomizada)
q=length(df_movilidad1$Variable_dicotomizada)/length(df_inmovilizacion$Variable_dicotomizada)
rbp<-((X1barra-Xbarra)/SX)*sqrt(p/q)
rbp
[1] 0.07258622
El coeficiente para la medida de Inmovilización social indica una correlación muy baja entre las variables. Por lo tanto, dado que este es menor a 0.95, esta correlación no se sustenta estadisticamente, por lo que no se encuentra una correlación significativa entre las variables de frecuencia de salida y tipo de trabajo.
df_retiro<-df_form2%>%group_by(empleo)%>%filter(empleo!="No trabajo")%>%mutate(Variable_dicotomizada = as.numeric(empleo == "Formal"))%>%select(empleo,afp1.05,Variable_dicotomizada)
df_retiro
H0: No existe correlación entre la disminución en la frecuencia de salida y el tipo de trabajo.
H1: Existe correlación entre la disminución en la frecuencia de salida y el tipo de trabajo.
Determinación del coeficiente de correlación biserial puntual \[rbp=(X1barra-Xbarra)/SX*sqrt(p/q) \]
df_retiro1<-df_retiro%>%filter(Variable_dicotomizada==0)
df_retiro2<-df_retiro%>%filter(Variable_dicotomizada==1)
X1barra<-mean(as.numeric(as.character(df_retiro2$afp1.05)))
Xbarra<-mean(as.numeric(as.character(df_retiro$afp1.05)))
SX<-sd(as.numeric(as.character(df_retiro$afp1.05)))
p=length(df_retiro2$Variable_dicotomizada)/length(df_retiro$Variable_dicotomizada)
q=length(df_retiro1$Variable_dicotomizada)/length(df_retiro$Variable_dicotomizada)
rbp<-((X1barra-Xbarra)/SX)*sqrt(p/q)
rbp
[1] -0.1667686
El coeficiente de correlación para la medida del retiro AFP es negativo y bajo. Dado que este no supera el nivel de confianza requerido para considerarse significativo, se concluye que no existe una correlación significativa entre las variables de frecuencia de salida y tipo de trabajo para nuestros datos.
df_genero<-df_form2%>%group_by(genero)%>%mutate(Variable_dicotomizada = as.numeric(genero == "Masculino"))%>%select(genero,salidas,Variable_dicotomizada)%>%filter(salidas !="Mayor 5")
df_genero
H0: No existe una correlación entre frecuencia de salida a la semana y personas del género femenino.
H1: Existe una correlación entre frecuencia de salida a la semana y personas del género femenino.
Determinación del coeficiente de correlación biserial puntual \[rbp=(X1barra-Xbarra)/SX*sqrt(p/q) \]
df_femenino<-df_genero%>%filter(Variable_dicotomizada==0)
df_masculino<-df_genero%>%filter(Variable_dicotomizada==1)
X1barra<-mean(as.numeric(as.character(df_masculino$salidas)))
Xbarra<-mean(as.numeric(as.character(df_genero$salidas)))
SX<-sd(as.numeric(as.character(df_genero$salidas)))
p=length(df_masculino$Variable_dicotomizada)/length(df_genero$Variable_dicotomizada)
q=length(df_femenino$Variable_dicotomizada)/length(df_genero$Variable_dicotomizada)
rbp<-((X1barra-Xbarra)/SX)*sqrt(p/q)
rbp
[1] -0.01567836
Dado que el coeficiente de correlación biserial no supera el nivel de confianza requerido, el modelo es impreciso. Por tanto, se concluye directamente que no existe una correlción significativa entre la frecuencia de salida a la semana y el género femenino.
df_medida_genero<-df_form2%>%group_by(genero)%>%mutate(Variable_dicotomizada = as.numeric(genero == "Masculino"))%>%select(genero,noday.05,Variable_dicotomizada)
df_medida_genero
En relación a las hipótesis que se plantearon y no se rechazaron
H0: No existe una correlación entre la disminución de frecuencia de salida a la semana y personas del género femenino.
H1: Existe una correlación entre la disminución de frecuencia de salida a la semana y personas del género femenino.
Determinación del coeficiente biserial: \[rbp=(X1barra-Xbarra)/SX*sqrt(p/q) \]
df_med_femenino<-df_medida_genero%>%filter(Variable_dicotomizada==0)
df_med_masculino<-df_medida_genero%>%filter(Variable_dicotomizada==1)
X1barra<-mean(as.numeric(as.character(df_med_masculino$noday.05)))
Xbarra<-mean(as.numeric(as.character(df_medida_genero$noday.05)))
SX<-sd(as.numeric(as.character(df_medida_genero$noday.05)))
p=length(df_med_masculino$Variable_dicotomizada)/length(df_medida_genero$Variable_dicotomizada)
q=length(df_med_femenino$Variable_dicotomizada)/length(df_medida_genero$Variable_dicotomizada)
rbp<-((X1barra-Xbarra)/SX)*sqrt(p/q) #p=informal/muestra , q=formal/muestra
rbp
[1] 0.0689382
El coeficiente es extremadamente bajo y no supera el nivel de confianza que se requiere, por lo que no se encuentra una correlación significativa entre las variables de frecuencia de salida y el género femenino para la medida.
Significancia: 0.05
H0: No existe una correlación lineal entre la edad y la frecuencia de salida.
H1: Existe una correlación lineal entre la edad y la frecuencia de salida.
datos.f <-as.character(df_form2$salidas)
datos.n<-replace(datos.f,datos.f=="Mayor 5","6")
datos.n<-as.integer(datos.n)
edad_frec <- data.frame(df_form2$edad,datos.n)
edad_frec
plot(datos.n~df_form2.edad,data = edad_frec, xlab="edad", ylab="frecuencia de salida")
edad_frec_lm <- lm(datos.n~df_form2.edad, data =edad_frec )
abline(edad_frec_lm)
cor(x = df_form2$edad , y =(datos.n), method = "pearson")
[1] 0.01262241
La gráfica del modelo muestra que el comportamiento de la variable dependiente es casi constante a lo largo de la edad, es decir, no hay cambios signifcativos en la frecuencia de salida tras un aumento o disminución de la edad. Respecto a la nube de puntos, existen muchos puntos alejados al ajuste de regresión lineal y se dispersan variablemente a medida que aumenta la edad.
El coeficiente de correlación de pearson para estas variables es extremadamente bajo, siendo muy cercano a 0. Esto implica que no se encuentra una correlación significativa entre las variables del estudio, por lo que se mantiene H0.
summary(edad_frec_lm)
Call:
lm(formula = datos.n ~ df_form2.edad, data = edad_frec)
Residuals:
Min 1Q Median 3Q Max
-2.5345 -1.4733 -0.4749 0.5251 3.5331
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.437878 0.242263 10.063 <2e-16 ***
df_form2.edad 0.001610 0.006742 0.239 0.811
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1.694 on 358 degrees of freedom
Multiple R-squared: 0.0001593, Adjusted R-squared: -0.002634
F-statistic: 0.05705 on 1 and 358 DF, p-value: 0.8114
Se obtuvo un modelo con pendiente muy baja, con un p-valor mayor a la significancia establecida, por lo que no se rechaza la hipótesis nula de que este valor sea 0, es cercano a 0. Respecto al intercepto, cuando la edad es 0, el p_valor es mucho menor a la significancia establecida, por lo que se rechaza la hipótesis nula que sea 0, es 2.437 veces de salida. El coeficiente de determinación indica que el 0.000153 % de variación de las frecuencias de salida se puede explicar por la edad. Es muy bajo y por tanto coincide con el bajo grado de asociación de las variables.
plot(edad_frec_lm)
En la primera gráfica de los residuos Vs. los valores ajustados , se observa que la media de los residuos se desvía de 0 a lo largo de los valores ajustados. De la misma manera, se observa una dispersión variable a lo largo de los valores ajustados, es decir, no hay homocedasticidad. Al inicio, se observa que los residuos debajo de 0 son mayores que los que se encuentran encima de 0, la distribución de los puntos no es simétrica. En el medio, existe mayor dispersión encima de 0, al final es aún más notaria esa dispersión. Ello indica que los residuos del modelo se están dispersando de tal forma que no se distribuyen como una variable normal. Dado que los errores no siguen una distribución normal, se puede afirmar que el ajuste como regresión lineal no es buena aproximación para explicar como cambia la frecuencia a partir de la edad.
En la segunda gráfica residuos estandarizados Vs. cuantiles teóricos, se observa que a medida que incrementan los quantiles teóricos, existen muchos residuos que inciden en el mismo valor y alguno de estos se alinean a la recta de los cuantiles teóricos. Esto se debe a que la variable dependiente del modelo, algunas veces se repite para cada edad. Llega un momento en el que los errores estandarizados se desalinean completamente de la recta. Esto se debe a que existen saltos en el valor de la variable dependiente que el error estandarizado no ajusta porque los datos no siguen el comportamiento de una regresión lineal. La idea de explicar una mayor frecuencia de salida con una mayor edad no es correctamente ajustada ya que existe evidencia que los datos no siguen esta tendencia.
A partir de la evidencia estadística, se afirma que el modelo de regresión lineal que buscaba explicar la frecuencia de salida mediante la edad no resulta una buena aproximación. Por lo tanto se rechaza la H0. Las razones están directamente relacionadas al comportamiento de los datos recolectados. Durante la descripción de la edad en base a las frecuencias de salida se observó que las distribuciones de las edades no eran muy diferentes, algunas coincidían cada vez que incrementaba la frecuencia de salida. Se debe a que los encuestados con más edad a veces salían más que menos, de igual forma sucedía con los de menos edad, no se evidenciaba claramente una tendencia definida. Se comprobó esta afirmación también, mediante prueba de hipótesis de la media de la muestra, en el cual no se rechazo la hipótesis nula de que las personas menores de 25 años no necesariamente tenían menores salidas, debido a que la media de ellos era mayor que la media de la muestra y el p_valor resultaba mayor que la significancia, lo cual implicaba que habían personas menores de 25 años que salían más que el promedio de la muestra.
Significancia: 0.05
H0: No existe correlación lineal entre ingresos mensuales y la frecuencia de salida a la semana.
H1: Existe correlación lineal entre ingresos mensuales y la frecuencia de salida a la semana.
#df_form2
(1000 * (as.numeric(df_form2$ingreso) - 1)) -> x
as.numeric(df_form2$salidas) - 1 -> y
ingresos_frec=lm(y~x)
plot(y~x, xlab="Ingresos mensuales", ylab="frecuencia de salida")
abline(ingresos_frec)
cor(x, y, method="pearson")
[1] -0.05150849
La tendencia muestra un leve decrecimiento en la frecuencia de salida al aumentar los ingresos. Se observa que existen de más a menos puntos alejados del ajuste lineal a medida que incrementan los ingresos mensuales. Del mismo modo, existe una dispersión variable de la nube de puntos a medida que incrementan los ingresos mensuales.
El coeficiente de correlación de pearson es negativo y su v.a. se encuentra debajo del nivel de confianza requerido, por lo que no se encuentra una correlación significativa entre las variables. Para corroborar ello se analiza los coeficientes del modelo, se describe y analizan los residuos del modelo.
summary(ingresos_frec)
Call:
lm(formula = y ~ x)
Residuals:
Min 1Q Median 3Q Max
-2.5616 -1.3255 -0.5026 0.5565 3.7041
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.562e+00 1.144e-01 22.388 <2e-16 ***
x -2.952e-05 3.025e-05 -0.976 0.33
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1.692 on 358 degrees of freedom
Multiple R-squared: 0.002653, Adjusted R-squared: -0.0001328
F-statistic: 0.9523 on 1 and 358 DF, p-value: 0.3298
Los residuos muestran que la predicción obtenida no se mantienen de acuerdo con los resultados reales por un margen muy significativo, lo que confirma el hecho que la correlación no es estadisticamente significativa.
plot(ingresos_frec)
En la primera gráfica de los residuos Vs. valores ajustados se muestra que la media de los errores se desvía de 0, ya que existe un mayor grado de dispersión debajo de 0 a medida que aumentan los valores ajustados. De la misma manera, se observa que al inicio existen mayores residuos debajo de 0 que encima de 0, en el medio también se da este comportamiento, al parecer al final los residuos son distribuidos simétricamente. Dado que la dispersión no es fija y simétrica para todos los errores a medida que se avanza en el ajuste del modelo, se puede decir que los residuos no siguen una distribución normal. Las variaciones en los residuos explican que la variable dependiente, no crece o decrece con una tendencia definida. Debido a que no siguen una distribución normal, el ajuste como regresión lineal para explicar la frecuencia de salida a partir de los ingresos no resultaría una buena aproximación.
En la segunda gráfica de los residuos estandarizados Vs. cuantiles teóricos. Se observa que inciden varios residuos estandarizados en un mismo valor, debido a que el valor de la variable dependiente algunas veces se repite. Algunos de estos residuos estandarizados se alinean a la recta de los cuartiles téoricos, algunos estan cerca, pero llega un punto en el que el alejamiento de la recta es significativo, tal que a pesar de estar estandarizado el error no ajusta el comportamiento de la regresión lineal. El valor de la variable dependiente varía de tal manera que resulta díficil ajustarlo, es por ello que los datos no siguen esta tendencia.
A partir de la evidencia estadística, se afirma que el modelo de regresión lineal que buscaba explicar la frecuencia de salida mediante los ingresos mensuales no resulta una buena aproximación. Por lo tanto se rechaza la H0. Las razones se encuentran conectadas a la parte descriptiva que se realizó para cada intervalo de ingresos, en los cuales se mostró que la distribución de las frecuencias de salida a medida que aumentaban los intervalos, resultaban menores en mediana que el intervalo o rango de [0,1000] soles, por lo que parecía favorecerse que menores frecuencias de salida estaban relacionadas con mayores ingresos. Esto se comprobó mediante una prueba de hipótesis comparando las medias entre las frecuencias de salida de aquellos con un intervalo de ingreso menor a 1000 soles y de la muestra, en esta se rechazo la hipótesis nula de que las personas con menores frecuencias de salida no necesariamente tienen ingresos mensuales mayores a 1000 soles dado que el p_valor resultó menor que la significancia establecida. Esto no daba certeza de que las personas con mayores ingresos a 1000 soles tenían menores frecuencias de salida, pero evidencia cierta tendencia a favorecer ello. Sin embargo, se observaba que existían personas que aún teniendo mayores ingreso salían más, y lo mismo sucedía con las personas que tenían menores ingresos , salían menos algunos. Esta alta variabilidad (dispersión) para las personas con ingresos mayores a 1000 soles explica porque el modelo de regresión lineal no ajusta correctamente los datos recolectados. Apesar de esto, se justifica claramente que la pendiente negativa del modelo se debe a que menores frecuencias se explican por mayores ingresos, pero que no resulta imponente ante la dispersión de los datos.
Al llevar a cabo el procedimiento explicado previamente, obtuvimos que las medidas que más afectaron a la inmovilización social fueron el estado de emergencia y la aprobación del padrón de hogares.A partir de las pruebas de hipótesis, se rechazaron las hipótesis nulas, por lo que existen diferencia significativas, es decir, se frenó la expansión de la enfermedad.
Por otro lado, en la medida de “Salida alternada por género” no existe diferencias significativas entre los dos sets de puntos. Dicho de otro modo, la medida no tuvo éxito en reducir los nuevos casos. Si bien es cierto esta medida funciona bien para disminuir la movilización, pero con el nivel de casos de Covid-19 sucede lo contrario, dado que estos aumentan de manera significativa.
Pocos días anteriores a la implementación de la medida “Permiso de adquisición de bienes y servicios básicos” en consideración, los nuevos casos empezaron a incrementar después de haberse mantenido relativamente constantes por un tiempo. El incremento de estos nuevos casos al parecer fue controlado por unos dias posteriores de ser tomada la medida. Para comprobar la significancia de esta diferencia, se planteó un f-test. Este demostró que no se podría rechazar la hipótesis nula, dado que no se encontraron diferencias en el ratio de aprición de nuevos casos.
En suma, al realizar la prueba de hipótesis para cada medida y la cantidad de casos por día pudimos hallar que en general, las medidas analizadas funcionaron de manera satisfactoria. Esto se debe a que a pesar de que no todas influyeron en la movilización recreacional, sí redujeron la cantidad de infectados por dia en Lima.
Tras realizar las encuestas, se encontró que la frecuencia de salida oscila entre dos y tres veces a la semana. La medida que tuvo mayor aprobación fue la inmovilización.
Por otra parte, existen algunas tendencias cuando se analizaron algunos de los gráficos en base a las respuestas de los encuestados. Tal es el caso, que se presenta un comportamiento entre la variable ingreso y casos infectados. Tal es el caso que las poblaciones con menores ingresos, como San Juan de Lurigancho con un ingreso de 0 a 1000 es el que presenta más de catorce mil infectados. No obstante, en comparación con los distritos más pudientes como Barranco con ingresos mayores a 4000, presenta menos de dos mil casos.
Entre los factores que la población determinó son los que desaceleran la propagación del covid - 19 destacan el toque de queda, medidas preventivas sanitarias, inmovilización, entre otros. Del mismo modo, los factores que aceleeran son la aglomeración de personas, falta de educación, informalidad, sistema de salud, etc.
Para el caso de las variables de la encuesta, se encontró que muchos resultados van en contra del comportamiento esperado, puesto que muchas de estas no se correlacionan en absoluto. Esto podria deberse a la naturaleza discreta de los datos del estudio.
También pudimos hallar algunas inconsistencias en la información adquirida. Estas inconsistencias podrían provenir de algunos factores que no se tomaron en cuenta. Por ejemplo, todas las medidas que no se consideraron tuvieron un efecto aunque sea mínimo en las variables analizadas.
Pudimos relacionar diferentes medidas tomadas por el gobierno peruano con la propagacion del COVID-19 de manera satisfactoria y averiguar a través de un procedimiento estadístico si la relación de estas medidas con la inmovilización social era significativa o no. También pudimos relacionar las medidas con otros factores como la cantidad de casos por día e información adquirida a traves de entrevistas y datos sacados de fuentes confiables.
Fuimos capaces de hallar la relación entre diferentes variables relacionadas a las medidas escogidas, las entrevistas llevadas a cabo y la información adquirida en la web y descubrimos cuáles de estas variables son las que tienen más semejanzas. Se encontraron tambien diversos resultados que van en contra de las predicciones.
Aprendimos a utilizar Github como un medio de comunicación que nos ayuda a juntar toda la información de manera rápida y sencilla. Esto permitió que la comunicación entre los integrantes del grupo sea más fluida y sus avances se integren de manera lógica y entendible en el informe.
Finalmente, logramos aprender todo lo necesario en R-studio para llevar a cabo la investigación de manera satisfactoria y desarrollar descriptores gráficos que ayudan a comprender de mejor manera todo el trabajo.